強化學習是機器學習其中的一個部份,主要是說人工智慧在一個還不斷的互動嘗試,做出決策來最佳化目標的完成。這在許多需要隨時制定決策的很多領域中都有應用,像是自動駕駛、遊戲玩法、機器人控制、金融交易和醫學治療等。
主體 (Agent) 與環境 (Environment) 接觸互動,去感知環境的狀態 (States) 並選擇採取什麼動作 (Actions)。
主體採取動作後,環境通過進行動作後的獎勵 (Rewards) 提供反饋,告訴主體它的行動的好壞。
主體會用策略 (Policy) 來制定動作的決策,目標是經過一連串的互動,獲得最大的累積獎勵。
以下是自己畫的簡略關係圖